\chapter{基本无害的计量经济学阅读笔记}

\section{关于“问题”的问题}
比较简单
\section{ 理想的实验}

\subsection{选择性偏误}
医院能让人更健康吗？

\begin{equation*}
potential \; outcome=\begin{cases}
Y_{1i}\\
Y_{0i}
\end{cases}
\end{equation*}

其中，$Y_{0i} $ 为个体$i$的潜在结果。即无论其是否的确去了医院，若未去医院其健康状况为$Y_{0i} $。类似的，$Y_{1i} $。

令观察到的结果为$Y_i $，那么
\[
Y_i=
\begin{cases}
Y_{1i} & if \; D_i=1\\
Y_{0i} & if \; D_i=0\\
\end{cases}
\]
其中，$D_i=\{0,1\} $ 为是否接受医院治疗。即，
\begin{equation}\label{eq:y}
Y_i=Y_{0i}+(Y_{1i}-Y_{0i})D_i
\end{equation}

是否去医院接受治疗带来的不同结果就是，
\[
E[Y_i|D_i=1]-E[Y_i|D_i=0]=\underbrace{E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1]}_{ATT}+\underbrace{E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0]}_{SB}
\]

选择性偏误就是去医院接受治疗和不去医院接受治疗的那些人，如果都没有去治疗时健康状况的平均差别。
\subsection{ 用随机分配解决选择性偏误 }
随机分配可以解决SB问题。随机分配使得$D_i $ 独立于潜在结果，于是选择性偏误
\[
E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0]=E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=1]=0
\]
因为由于独立性，$E[Y_{0i}|D_i=1]=E[Y_{0i}|D_i=0] $。
\subsection{对实验的回归分析}
\eqref{eq:y}式可用回归方程改写为，
\[
Y_i=\underbrace{\alpha}_{E(Y_{0i})}+\underbrace{\rho}_{Y_{1i}-Y_{0i}} D_i+\underbrace{\eta_i}_{Y_{0i}-E(Y_{0i})}
\]
对上式根据D的取值求条件期望，可以有，
\begin{align}
E[Y_i|D_i=1] & =\alpha+\rho +E[\eta_i|D_i=1]\\
E[Y_i|D_i=0] & =\alpha+E[\eta_i|D_i=0]
\end{align}

可见，
\[
E[Y_i|D_i=1]-E[Y_i|D_i=0]=\underbrace{\rho}_{treatment effcet}+\underbrace{E[\eta_i|D_i=1]-E[\eta_i|D_i=0]}_{SB}
\]
从上可看出，选择性偏误源自$\eta_i $于$D_i $的相关性。

如果协变量与D无关，那么就不会影响对$\rho $的估计，但是加入这些协变量会减少标准误。
\section{ 让回归变得有意义}
\subsection{ 回归的基本原理}
\subsubsection{经济学中的关系和条件期望函数}

条件期望函数适用迭代期望定律，即
\[
E(Y_i)=E[E(Y_i|X_i)]
\]
\begin{thm}
	 条件期望函数的分解性质，
	 \[	 Y_i=E(Y_i|X_i)+\varepsilon_i \]
	 任一随机变量$  Y_i $都可以分解成由$ X_i $解释的部分以及正交于$  X_i $的任何函数的部分。
\end{thm}
\begin{thm}
	条件期望函数的预测性质:
	令$m(X_i) $是关于$X_i $的任何函数，条件期望函数是下面问题的解，
	\[	E(Y_i|X_i)=arg\; min_{m(X_i)}\; E[(Y_i-m(X_i))^2]	\]
	即条件期望函数是给定$X_i $后对$Y_i $的最小均方误预测。
\end{thm}
\begin{thm}
	方差分析定理
	\[	V(Y_i)=V[E(Y_i|X_i)]+E[V(Y_i|X_i)]	\]
\end{thm}

\subsubsection{ 线性回归与条件期望函数}
1）解构回归公式，
\[
\beta_k=\frac{cov(Y_i,\tilde x_{ki})}{V(\tilde x_{ki})}
\]
其中，$\tilde x_{ki} $是$x_{ki} $对其他回归元回归后得到的残差项。直观上，多元回归每个回归元的系数都是该回归元剔除其他回归元对自己的影响后，再与$Y_i $进行简单二元回归得到的斜率。

2）利用迭代期望规律，可以有，
\[\beta=E(X_iX'_i)^{-1}E(X_iY_i)=E(X_iX'_i)^{-1}E[X_iE(Y_i|X_i)]\]
即以$Y_i $ 为被解释变量的回归等价于以$E(Y_i|X_i) $为被解释变量的回归，这就为分组回归提供了理论证明。
\subsubsection{渐进最小二乘推断}
\textbf{大数定理}：样本矩依概率收敛于总体矩。

\textbf{中心极限定理}：样本矩是渐进正态分布的。减去总体矩，再乘以样本规模的平方根后，其方差就等于相应随机变量的方差。

\textbf{斯拉茨基定理}：
\begin{itemize}
	\item 考虑两个随机变量的和。$a_N $依分布收敛（即其具备一个渐近分布），$b_N $依概率收敛于一个常数$b$，那么$a_N+b_N $与$a_N+b $具备相同的渐近分布。
	\item 考虑两个随机变量的积。 $a_N $依分布收敛（即其具备一个渐近分布），$b_N $ 依概率收敛于一个常数$b$，那么$a_Nb_N $与$a_Nb $具备相同的渐近分布。		
\end{itemize}

\textbf{连续映射定理}：概率极限算子可穿越连续函数。正式地说，若$plim\; b_N=b $，那么$plim\;h(b_N)=h(b) $。

\textbf{德尔塔法}：如果随机变量(可以是向量)$ b_N $是渐进正态分布的，其协方差为$ \Omega $，$ p\lim b_N=b $,同时$ h(\cdot) $是在$ b $处连续可微的函数，于是具有梯度$ \bigtriangledown h(b) $，那么$ h(b_N) $是渐进正态分布的，其协方差矩阵为$ \bigtriangledown h(b)'\Omega\bigtriangledown h(b) $。
\subsubsection{ 饱和模型、主效应和其他的有关回归的话}
饱和模型和主效应都是针对离散处理变量的。

饱和模型指的是在离散解释变量回归模型中，对解释变量的每一个取值都存在一个参数与之对应。

模型中存在两个解释变量，可以通过包含两个虚拟变量及其交互项达到模型饱和，虚拟变量前的系数称为主效应。

无交互项，只有主效应相加的模型中，如教育水平和性别的例子中，那么教育水平前的系数表达的是两种性别的教育回报的加权平均值。
\subsection{ 回归与因果关系}
\subsubsection{条件独立假设（CIA）}
该假设意味着选择偏误来自可观察变量。正式地说，给定观察到的特征$X_i $，选择性偏误消失，即，
\[
\{Y_{0i},Y_{1i}\}\bot C_i|X_i
\]
运用潜在处理结果的分析框架，利用CIA，则有，
\begin{align*}
E[Y_i|X_i,C_i=1] & -E[Y_i|X_i,C_i=0] \\
& = \underbrace{E[Y_{1i}-Y_{0i}|X_i,C_i=1]}_{ATT}+\underbrace{E[Y_{0i}|X_i,C_i=1]-E[Y_{0i}|X_i,C_i=0]}_{SB}\\
& = E(Y_{1i}-Y_{0i}|X_i)
\end{align*}

这意味着通过观测数据可以得到以$X_i $为条件的因果关系，即对$X_i $的每个值都有一个因果关系，那么通过迭代期望就可以得到一个无条件因果效应，这里的权重就是$X_i $的边际分布。使用这种方法计算，有三个不足，
\begin{enumerate}
	\item 这种匹配的算法有很多细节要考虑，后面会展开；
	\item 需要两步走，匹配和平均，而且标准误的计算不明显。
\item 如果处理变量是多值的，则需要对这些不同的因果效应汇总。	
\end{enumerate}
而回归会顺利解决上述问题。
\subsubsection{遗漏变量偏误公式}
包含控制变量的回归形象称之为长回归，无控制变量称之为短回归。前者由于无变量遗漏，其系数具备因果解释。
在教育回报的例子中，控制变量可以简化为家庭背景、智力和动机，这些因素可以向量$A_i $标记，并总称为能力。控制能力后，工资对教育水平的回归就可以写成，
\[
Y_i=\alpha+\rho s_i+A'_i\gamma+e_i
\]
将能力排除后的短回归参数与上式即长回归参数之间的关系由下式给出，
\[
\frac{cov(Y_i,s_i)}{V(s_i)}=\rho + \gamma'\delta_{As}
\]
其中，$\delta_{As} $是$A_i$中各元素分别对$s_i$回归的系数向量。通俗地说，短回归参数等于长回归参数加上一个数，这个数等于遗漏变量效应乘以遗漏变量对感兴趣变量的系数。

可见如果能力对工资的影响是正的，且能力又与教育水平正相关，那么短回归的系数就偏大了。

\subsubsection{不合格的控制变量}
\textbf{本身可作为被解释变量的变量是不合格的。}亦即控制变量不能受处理变量所影响。举个例子，教育影响收入，可不可以把职业作为控制变量纳入？记$ W_{i} $表示个体$ i $是否为白领工人的虚拟变量，收入用$ Y_i $表示。个体接受教育与否会给职业和收入带来两个潜在结果，记为$ \{W_{0i},W_{1i}\},\{Y_{0i},Y_{1i}\} $。不合格的控制变量意味着给定$ W_i $后无法对收入水平的差异比较赋予一个因果解释。具体的，当$ W_i=1 $时，不同教育水平$ C_i $下(它是随机分配的)平均收入差异为，
\begin{align*}
&E[Y_i|W_i=1,C_i=1]-E[Y_i|W_i=1,C_i=0]\\
=&E[Y_{1i}|W_{1i}=1,C_i=1]-E[Y_{0i}|W_{0i}=1,C_i=0]\\
=&E[Y_{1i}|W_{1i}=1]-E[Y_{0i}|W_{0i}=1]\\
=&\underbrace{E[Y_{1i}-Y_{0i}|W_{1i}=1]}_{\text{因果效应}}+\underbrace{E[Y_{0i}|W_{1i}=1]-E[Y_{0i}|W_{0i}=1]}_{\text{选择性偏误}}
\end{align*}

第一个等号之所以成立，因为一旦$ C_i=0 $，你看到的$ W_i,Y_i $的结果就是对应0时的潜在结果。第二个等号成立是因为$ C_i $是独立的。第三个等号只是做了个等价变化。

\textbf{代理变量做控制变量也是不合格的。}若真实回归为，
\begin{equation}\label{eq:real}
Y_i=\alpha+\rho s_i+\gamma a_i+e_i
\end{equation}

但$ a_i $无法度量，假如我们找到一个代理变量$ a_{li} $，它具备如下形式，
\begin{equation}\label{eq:li}
a_{li}=\pi_0+\pi_1 s_i+\pi_2 a_i
\end{equation}
\eqref{eq:li}式代入\eqref{eq:real}式，有，
\[
Y_i=\left( \alpha-\gamma \frac{\pi_0}{\pi_2}\right)+\left( \rho-\gamma \frac{\pi_1}{\pi_2}\right)s_i+\frac{\gamma}{\pi_2}a_{li}+e_i
\]

因果关系$\rho-\gamma \frac{\pi_1}{\pi_2} $的偏误是明显的，但一般相对于短回归的偏误$\rho+\gamma \delta_{as} $要小。同时在$\delta_{as} $为正的情况下，可以确定地说感兴趣的因果效应处于代理变量回归度量的因果效应和短回归因果效应之间。

\subsection{异质性与非线性}
\subsubsection{回归与匹配}

匹配估计值：对每个协变量的特定值所决定的个体计算处理组和控制组之间的平均差异，然后以加权平均方式将这些平均因果效应汇总。	

回归是一种特定类型加权后的匹配估计量。

正式地，以参军为例，从数学上来看待这一过程，保持CIA成立，即给定$ X_i $ ，无SB，通过迭代期望定律，因果效应有如下表达，
\begin{align}
E(Y_{1i}-Y_{0i} & |D_i=1)\notag\\
& = E[E(Y_{1i}|X_i,D_i=1)-E(Y_{0i}|X_i,D_i=1)|D_i=1]\notag\\
& = E[E(Y_{1i}|X_i,D_i=1)-E(Y_{0i}|X_i,D_i=0)|D_i=1]\label{eq:4}\\
& = E(\delta_X|D_i=1)\notag
\end{align}

其中，$\delta_X\equiv E(Y_{i}|X_i,D_i=1)-E(Y_{i}|X_i,D_i=0) $。离散情况下，上式的样本对应物为，
\begin{equation}\label{eq:5}
E(Y_{1i}-Y_{0i}|D_i=1)=\sum_x \delta_xP(X_i=x|D_i=1)
\end{equation}
其中，$P(X_i=x|D_i=1) $是当$D_i=1 $时$ X_i $的概率质量函数。

再来观察回归估计量，
\[
Y_i=\sum_xd_{ix}\alpha_x+\delta_RD_i+e_i
\]
利用解构回归公式，对感兴趣的系数$\delta_R $，有，
\begin{align}
\delta_R & =\frac{cov(Y_i,\tilde D_i)}{V(\tilde D_i)}\notag\\
& = \frac{E[(D_i-E(D_i|X_i))Y_i]}{E[D_i-E(D_i|X_i)]^2}\label{eq:deltaR}\\
& = \frac{E[(D_i-E(D_i|X_i))E(Y_i|D_i,X_i)]}{E[D_i-E(D_i|X_i)]^2}\notag
\end{align}

第二个等号由于模型关于$  X_i $饱和，故$E(D_i|X_i) $是线性的。第三个等号是分组回归定理。而根据$\delta_X $的定义，有，
\[
E(Y_i|D_i,X_i)=E(Y_i|D_i=0,X_i)+\delta_XD_i
\]
将上式代入\eqref{eq:deltaR}式的分子，有，
\begin{align*}
& E[(D_i-E(D_i|X_i))E(Y_i|D_i,X_i)]\\
= &E[(D_i-E(D_i|X_i))E(Y_i|D_i=0,X_i)]+E[(D_i-E(D_i|X_i))D_i\delta_X]
\end{align*}
上式第一项中，$D_i-E(D_i|X_i) $与$ X_i $的任何函数无关，而$E(Y_i|D_i=0,X_i)] $又只是关于$ X_i $的函数，故知上式第一项为0。同时，正因为$D_i-E(D_i|X_i) $与$ i $的任何函数无关，当然也与$E(D_i|X_i) $无关，于是第二项有，
\begin{align*}
E[(D_i-E(D_i|X_i))D_i\delta_X] & =E[(D_i-E(D_i|X_i))(D_i-E(D_i|X_i))\delta_X]\\
& =E[(D_i-E(D_i|X_i))^2\delta_X]
\end{align*}

综上，有，
\begin{equation}\label{eq:7}
\delta_R=\frac{E[(D_i-E(D_i|X_i))^2\delta_X]}{E[(D_i-E(D_i|X_i))^2]}=\frac{E[\sigma_D^2(X_i)\delta_X]}{E[\sigma_D^2(X_i)]}
\end{equation}

其中，$\sigma_D^2(X_i)\equiv E[(D_i-E(D_i|X_i))^2] $，是给定$ X_i $下$ D_i $的条件方差。又由于$ D_i $是二值变量，故，
\[
\delta_D^2(X_i)=P(D_i=1|X_i)(1-P(D_i=1|X_i))
\]
因此，\eqref{eq:7}式就可以写为，
\begin{equation}\label{eq:8}
\delta_R=\frac{\sum_x\delta_x[P(D_i=1|X_i=x)(1-P(D_i=1|X_i=x))]P(X_i=x)}{\sum_x[P(D_i=1|X_i=x)(1-P(D_i=1|X_i=x))]P(X_i=x)}
\end{equation}

通俗地说，回归估计值就是特定协变量下处理效应的加权平均，而权重就是$[P(D_i=1|X_i=x)(1-P(D_i=1|X_i=x))]P(X_i=x) $。
从\eqref{eq:5}和\eqref{eq:8}就可以看出，匹配估计量和回归估计量不过是因果效应的权重不同而已。
不过这两个估计值在数值上是存在差异的，有个时候这种差异还是统计显著的。


\subsubsection{用PSM控制协变量}
倾向得分分两步估计，第一步使用Logit或者Probit估计$P(X_i) $，第二步使用$P(X_i) $进行匹配，然后估计。该法和前面提到的以协变量匹配方法是类似的。
由倾向评分得分定理和CIA假设（类似\eqref{eq:4}式的推导），有，
\begin{align*}
E(Y_{1i}-Y_{0i} & |D_i=1)\\
& = E[E(Y_{1i}|p(X_i),D_i=1)-E(Y_{0i}|p(X_i),D_i=1)|D_i=1]\\
& = E[E(Y_{1i}|p(X_i),D_i=1)-E(Y_{0i}|p(X_i),D_i=0)|D_i=1]\\
& = E[E(Y_{i}|p(X_i),D_i=1)-E(Y_{i}|p(X_i),D_i=0)|D_i=1]
\end{align*}

这样，基于相应样本对应物就可以得到PSM的估计值。

再来看一个避免匹配过程的另一种算法，它有助于我们更深的理解。
\[
E\left(\frac{Y_iD_i}{p(X_i)}\right )=E\left[ E\left( \frac{Y_iD_i}{p(X_i)}|X_i\right)\right]
\]
又\footnote{该等式是这么得到的，因为，
	\[	E\left( \frac{Y_iD_i}{p(X_i)}|X_i\right) = E\left( \frac{Y_iD_i|X_i}{p(X_i)}\right)\]
	又，$E(AB)=E(AB_1|B_1)p(B_1)+E(AB_2|B_2)p(B_2) $，故，
	\begin{align*}
	E\left( \frac{Y_iD_i|X_i}{p(X_i)}\right) & =E\left( \frac{(Y_i|D_i=1,X_i)p(X_i)}{p(X_i)}\right)+\left( \frac{(Y_i\cdot 0|D_i=0,X_i)p(X_i)}{p(X_i)}\right)\\
	& = E(Y_{1i}|D_i=1,X_i)
	\end{align*}	
}，
\begin{align*}
E\left( \frac{Y_iD_i}{p(X_i)}|X_i\right) & =\frac{E(Y_i|D_i,X_i)p(X_i)}{p(X_i)}\\
& = E(Y_{1i}|D_i=1,X_i)\\
& =E(Y_{1i}|X_i)
\end{align*}

综上，有，$E\left(\frac{Y_iD_i}{p(X_i)}\right )=E(Y_{1i}) $，类似推导，有，$E\left( \frac{Y_i(1-D_i)}{(1-p(X_i))}\right)=E(Y_{0i}) $。于是，有，
\begin{align}
E(Y_{1i}-Y_{0i}) & =E\left[ \frac{Y_iD_i}{p(X_i)}-\frac{Y_i(1-D_i)}{(1-p(X_i))}\right]\notag\\
& = E\left[ \frac{Y_i(D_i-p(X_i))}{p(X_i)(1-p(X_i))}\right]\label{eq:9}
\end{align}

类似地，被处理者的处理效应为，
\begin{equation}\label{eq:10}
E(Y_{1i}-Y_{0i}|D_i=1) = E\left[ \frac{Y_i(D_i-p(X_i))}{P(D_i=1)(1-p(X_i))}\right]
\end{equation}

回忆回归估计量\eqref{eq:deltaR}式，其可以写作\footnote{\eqref{eq:deltaR}式的分母$E[D_i-E(D_i|X_i)]^2=E[D_i-p(X_i)]^2 $，当D=1时，该式等于$p^2-p $，当D＝0时，该式等于$  p^2 $。故，该式等价于$ p(1-p) $ 。}，
\begin{equation}\label{eq:11}
\delta_R=\frac{E[Y_i(D_i-p(X_i))]}{E[p(X_i)(1-p(X_i))]}
\end{equation}



\eqref{eq:9}式、\eqref{eq:10}式和\eqref{eq:11}式都属于Hirano, Imbens and Ridder(2003)加权平均估计类的一种，该估计类可以写为，
\[
E\left\{ g(X_i)\left[ \frac{Y_iD_i}{p(X_i)}-\frac{Y_i(1-D_i)}{(1-p(X_i))}\right]\right \}
\]
其中，$g(X_i) $是一个已知的权重函数。想得到平均处理效应，令$g(X_i)=1 $，想得到被处理者平均处理效应，令$g(X_i)=\frac{p(X_i)}{P(D_i=1)} $，如果是回归，则令，
\[
g(X_i)=\frac{p(X_i)(1-p(X_i))}{E[p(X_i)(1-p(X_i))]}
\]

从上可以看到，回归和匹配（包括倾向得分匹配）差异并不太大。但使用PSM有几个实际问题需要考虑：
如何对$p(X_i) $建模？建模后，如何对$E[Y_i|p(X_i),D_i] $平滑和分层？正是这些因素使得相同的数据可以得到完全不同的结果。
此外，相比于使用协变量，使用PSM匹配总会带来有效性损失。
\subsubsection{ PSM和回归}
\subsection{回归的细节}
\subsubsection{加权回归}
加权的理由：
\begin{itemize}
	\item 若要估计总体方程，但样本却是非随机的，那么使用抽样权重 （被抽到的概率的倒数）加权就很有必要；
\item	分组数据情况。使用 （即样本中 的数目）加权的分组回归可以得到和微观数据一样的回归结果。
\end{itemize}

不加权的理由：并不建议仅仅基于异方差而加权回归。
\subsubsection{ 有限被解释变量与边际效应}

\section{实践中的工具变量：得到你想要的}
\subsection{ 工具变量与因果关系}
做一些符号标记。类似上一章，记潜在结果为，
\[Y_{si}=f_i(s)\]
和
\[f_i(s)=\alpha+\rho s+\eta_i\]
如果存在一个向量 记为“能力”，可将选择性偏误表达为，
\[\eta_i=A_i'\gamma +\nu_i\]
在此，假设$  s_i $与$  \eta_i $相关的唯一原因是$  A'_i $，因此，
\[E(s_i\nu_i)=0\]

如果$A'_i$可观测，那么估计如下的长回归就可以得到想要的因果关系$  \rho $，
\begin{equation}\label{eq:12}
Y_i=\alpha+\rho s_i+A'_i\gamma+\nu_i
\end{equation}

现在问题在于$ A'_i $ 不可观测，工具变量可以解决$  A'_i $不可观测时的$  \rho $的估计问题。工具变量$ Z_i $与$ s_i $有关，但与其他解释变量无关（即$cov(\eta_i,Z_i)=0 $，这个假设也称为排他性约束），在排他性约束下，对\eqref{eq:12}式两边取与$  Z_i $的协方差，就可以得到，
\[\rho=\frac{cov(Y_i,Z_i)}{cov(s_i,Z_i)}=\frac{cov(Y_i,Z_i)/Var(Z_i)}{cov(s_i,Z_i)/Var(Z_i)}\]

从上式可以看到$  \rho $也是$  Y_i $对$  Z_i $的回归系数（称之为简约式或诱导式）与$  s_i $对$  Z_i $的回归系数（第一阶段）之比。

更一般地，当包含其他协变量时，
\begin{equation}\label{eq:13}
Y_i=\alpha'X_i+\rho s_i+\eta_i=\alpha'X_i+\rho s_i+A'_i\gamma+\nu_i
\end{equation}


有，
\begin{equation}\label{eq:14}
\rho=\frac{cov(Y_i,\tilde z_i)}{cov(s_i,\tilde z_i)}
\end{equation}

其中，$\tilde z_i $为$  Z_i $对$  X_i $作回归后的残差。根据构造，可知$\tilde z_i $与$  X_i $无关，根据假设 $\tilde z_i $与$  \eta_i $无关，因此，\eqref{eq:14}式的证明是显然的。此称之为间接最小二乘估计值。


\subsubsection{两阶段最小二乘回归}
第一阶段回归和诱导回归可以分别书写如下，
\begin{align*}
s_i=X'_i\pi_{10}+\pi_{11}Z_i+\xi_{1i}\\
Y_i=X'_i\pi_{20}+\pi_{21}Z_i+\xi_{2i}
\end{align*}

将第一阶段回归代入\eqref{eq:13}式中，有，
\begin{align*}
Y_i & =\alpha'X_i+\rho [X'_i\pi_{10}+\pi_{11}Z_i+\xi_{1i}]+\eta_i\\
& = X'_i[\alpha+\rho \pi_{10}]+\rho \pi_{11}Z_i+[\rho \xi_{1i}+\eta_i]
\end{align*}

从上式，可以再次发现$\rho=\frac{\pi_{21}}{\pi_{11}} $。实际上，对上式稍加调整，有，
\[Y_i=\alpha'X_i+\rho [X'_i\pi_{10}+\pi_{11}Z_i]+\xi_{2i}\]

即由于$\xi_{2i} $与$X_i,Z_i $均不相关，而上式括号中的值恰为第一阶段拟合值，故可以通过用$Y_i $对$X_i $和第一阶段拟合值回归而得到$\rho $。该过程称为二阶段最小二乘回归。
具体的，

\subsubsection{瓦尔德估计值}
回顾工具变量的深刻内涵：$ Z $ 的变化引起$s$的变化，然后$s$的变化的引起$Y  $的变化。如果此时我们感兴趣于度量s与$ Y $ 的因果关系$ \rho $的大小，那么很显然，它应该如下度量，
\[
\rho=\frac{dY/dZ}{ds/dZ}
\]

如果此时$ Z $是虚拟变量，那么很显然，有$\Delta Y/\Delta Z=E(Y_i|Z_i=1)-E(Y_i|Z_i=0) $以及$\Delta s/\Delta Z=E(s_i|Z_i=1)-E(s_i|Z_i=0) $，于是，
\[\rho =\frac{E(Y_i|Z_i=1)-E(Y_i|Z_i=0)}{E(s_i|Z_i=1)-E(s_i|Z_i=0)}\]

该估计值则为瓦尔德估计值。该估计值起源存在度量误差时，可以将数据按照与度量误差无关的方式分类，然后均值差的比值就是我们感兴趣的要估计的参数。

\vspace{2em}
检查$E(Y_i|Z_i) $随着$Z_i $变化而变化的唯一原因是$E(s_i|Z_i) $在变化可以有两种方式。以抽签参军为例，若$s_i $为是否具备越战经历，$Z_i $是否获得参军资格，那么
\begin{enumerate}
	\item 考虑
	\item 在$s_i $和$Z_i $之间不存在关系的样本中考察$Z_i $和$ y_i $ 之间的联系是否为0.	
\end{enumerate}

瓦尔德估计值基于单一工具变量，单一内生变量无协变量。
\subsubsection{分组数据和两阶段最小二乘法}
分组数据将瓦尔德估计值与2SLS估计值联系在了一起：用虚拟变量做工具变量时，2SLS估计值等价于对一系列分组数据的组内均值做广义最小二乘估计。

具体地，使用二元因果效应模型，有，
\begin{equation}\label{eq:15}
Y_i=\alpha+\rho D_i+\eta_i
\end{equation}

如果$R_j $是确定参军资格的随机数，那么作为工具变量，有$E(\eta_i|R_i)=0 $，另外，$P(D_i=1|R_i)=E(D_i|R_i) $，这样，对\eqref{eq:15}式两边取条件期望，就有，
\[
E(Y_i|R_i)=\alpha+\rho P(D_i|R_i)
\]
即，给定随机数后，在平均收入和平均服役概率之间拟合出的直线的斜率就是服役对收入的影响$ \rho $。若将$E(Y_i|R_i=j) $和$P(D_i=1|R_i=j) $分别记为$\bar y_j,\hat p_j $，\eqref{eq:15}式中的平均残差为$\bar\eta_j $，则对
\[
\bar y_j=\alpha+\rho \hat p_j+\bar \eta_j
\]
进行OLS回归得到的参数是一致的，不过由于分组回归中误差的方差结构是已知的，广义OLS将更受偏爱。

\subsection{ 2SLS最小二乘的渐进推断}
\subsubsection{ 2SLS系数的渐进分布}
系数仍然服从渐进正态分布，标准误的计算需要调整。
\subsubsection{过度识别与2SLS的最小化元}
记$Z_i\equiv [X'_i\; Z_{1i}\;\cdots Z_{Qi}]' $是外生协变量与Q个工具变量构成的向量，$W_i\equiv [X'_i \; s_i] $是外生协变量与感兴趣的内生变量构成的向量，待估系数向量$\Gamma \equiv [\alpha'\; \rho]' $ ，于是因果模型（第二阶段）中的残差可以定义为$\Gamma $的函数，
\begin{equation}\label{eq:16}
\eta_i(\Gamma)\equiv Y_i-\Gamma'W_i=Y_i-[\alpha'X_i+\rho s_i]
\end{equation}

而$\eta_i $又满足$E[Z_i\eta_i(\Gamma)]=0 $的正交条件，该正交条件的样本对应物为，
\[m_N(\Gamma)\equiv \frac{1}{N}\sum Z_i\eta_i(\Gamma)\]

若存在K个协变量，则待估参数为K+1（ $\Gamma $是K+1维），而上述方程组却有K+Q个（$Z_i $是+Q维），因此使得$m_N(\Gamma) $最小的$\Gamma $就是我们想要的$\Gamma $。在此，若用$\hat g $表示$\Gamma $ 的估计值，$\Lambda $表示$\sqrt N m_N(\Gamma) $的渐近协方差矩阵，我们指出，当残差维条件同方差时，通过最小化
\[
J_N(\hat g)\equiv Nm_N(\hat g)\Lambda^{-1}m_N(\hat g)
\]
得到的参数正好是2SLS估计值。我们称$J_N(\hat g) $是2SLS的最小化元。

由此也可以得到检验过渡识别的统计量。因为假设是正交条件$E[Z_i\eta_i(\Gamma)]=0 $，因此$J_N(\hat g) $表达的就是$m(\hat g) $和0之间的距离是多少，且因假设残差和工具变量不相关，故最小化后的$J_N(\hat g) $服从$\chi^2(Q-1) $分布。

\vspace{2em}
过度识别检验需要注意的问题：
工具变量估计值往往是不精确的，所以
\begin{enumerate}
	\item 即便单个工具变量估计很精确，也不能因为该工具变量和另一个工具变量估计值相差不多而欣慰；
	\item 即便两个工具变量相当精确，过度识别检验假设的拒绝也不意味着识别策略错误，因为可能存在局部效应。	
\end{enumerate}

\subsection{ 双样本工具变量和剖分样本工具变量}
回顾\eqref{eq:16}式，稍作变形可以得到，
\begin{equation}\label{eq:17}
\frac{Z'Y}{N}=\frac{Z'W}{N}\Gamma+\frac{Z'\eta}{N}
\end{equation}
于是有$E\left (\frac{Z'Y}{N}\right )=E\left (\frac{Z'W}{N}\right )\Gamma $，再回忆最小二乘的表达，可知，对\eqref{eq:17}式进行GLS可以得到对$ \Gamma $的一致估计。

实际上，\eqref{eq:17}式还可以启发我们，只要该式两边的矩阵来自同一总体，那么他们无需来自同一数据集。即完全可以对下式进行GLS，
\[
\frac{Z'_1Y_1}{N_1}=\frac{Z'_2W_2}{N_2}\Gamma+\left [ \left (\frac{Z'_1W_1}{N_1}-\frac{Z'_2W_2}{N_2}\right )\Gamma+ \frac{Z'_1\eta_1}{N_1}\right ]
\]
角标$ i $表示该变量来自数据集$ i $，Z表示工具变量和协变量，W表示内生变量和协变量。而中括号里面是误差项，因为$p\lim \left( \frac{Z'_2W_2}{N_2}\right ) =p\lim \left( \frac{Z'_1W_1}{N_1}\right ) $。这种估计方法称为双样本工具变量估计值。它的好处在于，如果在同一数据集中难以把解释变量、工具变量和感兴趣的内生变量全部找齐，双样本工具变量估计可以一试。

\vspace{2em}
Angrist和Krueger(1995)提出了一个无需矩阵计算的双样本估计计算方法，其步骤如下：
\begin{enumerate}
	\item 第一阶段回归：计算$(Z_2'Z_2)^{-1}Z_2'W_2 $，以便构造跨样本拟合值$\hat W_{12} \equiv Z_1(Z_2'Z_2)^{-1}Z_2'W_2$；
	\item 第二阶段回归，$Y_1 $对$ W_{12} $回归。	
\end{enumerate}
估计量的渐近分布由Inoue and Sohon（2009）给出。

\subsection{工具变量和异质性潜在结果}
前面的讨论都是基于因果效应是常数，这是一个很强的假设，从现在开始讨论异质性。
\subsubsection{ 局部平均处理效应}
引入记号，记$Y_i(d,z) $为个体$i$在处理结果为$D_i=d $时，工具变量取值为$Z_i=z $的潜在结果。

再引入一个记号来表达工具变量对$D_i $产生的因果效应，$D_{1i} $表示工具变量$Z_i=1 $时个体的处理状态，$D_{0i} $表示工具变量$Z_i=0 $时个体的处理状态。于是观测到的处理状态可以写成，
\[
D_i=D_{0i}+(D_{1i}-D_{0i})Z_i
\]

如果换成回归的形式，上式可以表达成，
\[
D_i=\pi_0+\pi_1Z_i+\xi_i
\]

其中，$\pi_0\equiv E(D_{0i}),\pi_{1i}\equiv (D_{1i}-D_{0i}) $。
\begin{thm}[局部平均处理效应定理]
	 
	独立性假设：$[(Y_i(D_{1i},1),Y_i(D_{0i},0)),D_{1i},D_{0i}]\perp Z_i $
	 
	排他性假设： $Y_i(d,0)=Y_i(d,1)\equiv Y_{di},for \; d=0,1 $
	
	第一阶段假设： $E(D_{1i}-D_{0i})\neq 0 $
	
	单调性假设： $D_{1i}-D_{0i}\geq 0,\forall \;i $
	
	则有，
	\[
	\frac{E(Y_i|Z_i=1)-E(Y_i|Z_i=0)}{E(D_i|Z_i=1)-E(D_i|Z_i=0)}=E(Y_{1i}-Y_{0i}|D_{1i}>D_{0i})=E(\rho_i|\pi_i>0)
	\]
\end{thm}

通俗地说，满足上述四大假设，瓦尔德估计值即为受工具变量影响的那些人，由于在军队服役造成的收入的变化。
\subsubsection{依从工具变量的子集}
按照个体对工具变量作出的反应，任何总体可被分为三类子集：
\begin{itemize}
	\item 依从工具变量者：满足$D_{1i}=1,D_{0i}=0 $；
	\item 始终接受者：满足$D_{1i}=1,D_{0i}=1 $；
	\item 从不接受者：满足$D_{1i}=0,D_{0i}=0 $。	
\end{itemize}

因此，对于总体中接受处理的个体由两个不相交的子集构成，要么是始终接受者，即$D_{0i}=1 $，要么$Z_i=1 $时愿意接受处理的人（这类人和$Z_i=0 $ 时不接受处理者构成依从工具变量者），即$D_{1i}-D_{0i}=1 $且$Z_i=1 $，于是，有，
\begin{align*}
& \underbrace{E(Y_{1i}-Y_{0i}|D_i=1)}_{effect \; on\; the\; treated}\\
= & \underbrace{E(Y_{1i}-Y_{0i}|D_{0i}=1)}_{effect \; on\; always-takers}P(D_{0i}=1|D_i=1)\\
& +\underbrace{E(Y_{1i}-Y_{0i}|D_{1i}>D_{0i})}_{effect \; on\; compliers}P(D_{1i}>D_{0i},Z_i=1|D_i=1)
\end{align*}

因此，接受处理的个体的因果效应是依从工具变量者和始终接受者的因果效应的加权平均。

类似的，未受处理者平均处理效应为，
\begin{align}\label{eq:18}
& \underbrace{E(Y_{1i}-Y_{0i}|D_i=0)}_{effect \; on\; the\; untreated}\\ \nonumber
= & \underbrace{E(Y_{1i}-Y_{0i}|D_{0i}=0)}_{effect \; on\; never-takers}P(D_{1i}=0|D_i=0)\\ 
& +\underbrace{E(Y_{1i}-Y_{0i}|D_{1i}>D_{0i})}_{effect \; on\; compliers}P(D_{1i}>D_{0i},Z_i=1|D_i=0) \nonumber
\end{align}

依从工具变量者的因果效应就是局部平均处理效应。
\subsubsection{ 随机试验中的工具变量}
本节内容为实验设计提供了一个指导。

局部平均处理效应就是依从工具变量但未受处理的人如果被处理，会带来的因果效应。

在随机试验中，对个体随机分配处理之后（这种随机分配即工具变量$Z_i $），那些选择接受处理的人往往是自愿的，而控制组则并未受到随机分配的干扰。于是就出现了自选择问题，此时，简单比较控制组和处理组，往往存在大的偏误，而且该偏误几乎一定为正：譬如接受药物治疗者本就健康；接受教育培训者赚钱能力本就强。此时，以 作工具变量进行估计，是可以纠偏的。

举个例子：用随机实验对JTPA项目进行评估，研究者随机派送参加培训资格，不过获得资格的人中只有60\%的人最终选择被培训。如果仅用是否接受培训进行比较，其收入差异大约在4000美元。如果按照随机分配的资格进行比较，收入差异大约在1200美元（意向治疗效应）。用意向治疗效应除以处理组和控制组之间参与率的差别（大约是0.6），即为参加培训项目的人仅仅因为参加该项目培训而获得收入提升。

从瓦尔德估计值的角度来看，参与率差别就是瓦尔德估计值的分母，意向治疗效应是瓦尔德估计值的分子。该结果可以总结如下，

Bloom的结果：如果局部平均处理效应定理所要求的假设都成立，且$E(D_i|Z_i=0)=P(D_i=1|Z_i=0)=0 $（即只存在一类不依从工具变量者。此处的含义是当没有分配其被处理时，其被处理的概率是0），那么有，
\[
\frac{E(Y_i|Z_i=1)-E(Y_i|Z_i=0)}{P(D_i|Z_i=1)}=E(Y_{1i}-Y_{0i}|D_i=1)
\]

再举个家暴例子：研究者随机抽取签，根据签号告诉警察对家暴实施者是逮捕、分居还是寻求第三方干预，在实际中，警察依然可以相机抉择。因此，签号和最终实施措施不会完全一致，但会高度相关。Angrist(1996)根据该研究中每个被随机赋予逮捕的人都被逮捕了的事实，可知这部分人没有不服从者，回顾\eqref{eq:18}式，此处的局部处理效应就是对未处理者的处理效应。其估计值的含义就是，如果将那些在随机实验中本该逮捕却未逮捕的人抓起来，重新施暴的可能性会大大下降。
\subsubsection{ 计算并考察依从工具变量者所具有的特征}
不同的工具变量对应不同的个体集合，因此即便是相同的因果关系，不同工具变量的估计值仍然会不同。

若依从某工具变量的个体所组成的集合与别的研究中感兴趣的总体很相似，就可以将该工具变量解释力推广至另外的研究中。

\vspace{2em}
本节有两个内容：第一，对依存工具变量者所构成的集合的规模可如下度量，
\begin{align}\label{eq:19}
P(D_{1i}>D_{0i}) & =E(D_{1i}-D_{0i})\\ \nonumber
& = E(D_{1i})-E(D_{0i})\\ 
& = E(D_{1i}|Z_i=1)-E(D_{0i}|Z_i=0)\nonumber
\end{align}

还可以进一步计算处理组中依从工具变量者规模：
\begin{align*}
P(D_{1i} & >D_{0i}|D_i=1)=\frac{P(D_i=1|D_{1i}>D_{0i})P(D_{1i}>D_{0i})}{P(D_i=1)}\\
& = \frac{P(Z_i=1)[E(D_i|Z_i=1)-E(D_i|Z_i=0)]}{P(D_i=1)}
\end{align*}

第一个等号源自条件概率公式。第二个等号源于如下事实，$P(D_i=1|D_{1i}>D_{0i})=P(Z_i=1|D_{1i}>D_{0i}) $，$D_{1i}>D_{0i} $就意味着是依从工具变量者，对于依从工具变量者若处理状态为1，则意味着工具变量为1。同时，考虑到独立性，则有$P(Z_i=1|D_{1i}>D_{0i})=P(Z_i=1) $。

第二，尽管无法列举依从工具变量者个体特征，但是刻画其个体特征的分布还是可行的。譬如，令$x_{1i} $表示是否大学毕业，遵循伯努里分布。现在用性别做工具变量，考察依从工具变量者在教育水平方面有何不同，下式可以回答该问题，
\begin{align*}
& \frac{P(x_{1i}=1|D_{1i}>D_{0i})}{P(x_{1i}=1)}=\frac{P(D_{1i}>D_{0i}|x_{1i}=1)}{P(D_{1i}>D_{0i})}\\
= & \frac{E(D_i|Z_i=1,x_{1i}=1)-E(D_i|Z_i=0,x_{1i}=1)}{E(D_i|Z_i=1)-E(D_i|Z_i=0)}\\
\end{align*}

第一个等号，通过交叉相乘可以理解。第二个等号，通过\eqref{eq:19}式可以理解。上式通俗地说，依从工具变量者是大学生的相对可能性等于针对大学生群体做的第一阶段回归结果与总体回归结果之比。


\subsection{对局部平均处理效应的推广}
局部平均处理效应定理只适用无协变量，单个虚拟变量做工具变量估计只存在单一处理的因果效应。需要在三个方向做出推广：多工具变量；存在协变量；因果效应取多个值甚至是连续值。

对于多工具变量，2SLS估计值就是讲这些工具变量估计值平均后得到的因果效应；存在协变量时，每个协变量取值都对应一个局部平均处理效应，2SLS是对这些局部处理效应的平均；当因果效应是多个或连续时，则对每个因果响应函数进行估计，2SLS就是对这些因果效应的加权平均。

\subsubsection{ 多工具变量下的局部平均处理效应}
2SLS作为局部处理效应的加权平均值，一般情况下的权重函数较为复杂，但可以两个工具变量为例给出一个权重函数的简单形式。
\subsubsection{存在协变量的异质性因果模型}
本来如果工具变量是随机分配的，那么协变量不会发挥作用。

但是，第一，并非所有的工具变量都具备这种性质。控制了协变量之后，条件独立性和排他性约束更可能成立。第二，可以降低因变量的变化，带来更精确的2SLS值。

\subsubsection{存在多种处理强度时的平均因果响应}
注意到从1年级读到2年级带来收入的变化可能和从4年级到5年级带来收入的变化是不一样的。正式地，若$s_i $可在集合$\{0,1,\cdots,\bar s\} $中取值，于是便存在$\bar s $个因果效应。

Angrist and Imbens（1995）给出了瓦尔德估计值在不同因果效应下的解释，
\begin{thm}[平均因果响应定理]

独立性和排他性约束：$\{ Y_{0i},Y_{1i},\cdots,Y_{si};s_{0i},s_{1i}\}\perp Z_i $；

第一阶段：$E(s_{1i}-s_{0i})\neq 0 $；

单调性：$s_{1i}-s_{0i}\ge 0 \;\forall \;i $，或反之；

那么，
\[
\frac{E(Y_i|Z_i=1)-E(Y_i|Z_i=0)}{E(s_i|Z_i=1)-E(Y_i|Z_i=0)}=\sum_{s=1}^{\bar s}\omega_sE(Y_{si}-Y_{s-1,i}|s_{1i}\ge s>s_{0i})
\]
其中，
\[
\omega_s=\frac{P(s_{1i}\ge s>s_{0i})}{\sum_{j=1}^{\bar s}P(s_{1i}\ge j> s_{0i})}
\]	
\end{thm}

使用该式可以帮助我们看清在因果效应在不同阶段的响应变化。譬如，用义务教育法和童工法做工具变量，可以估计初、高中生受教育水平提高带来的收入增加，但该估计值对小学教育对收入影响则没什么帮助，因为这两个工具变量均未使接受小学教育的水平发生变化。这可以通过绘制受工具变量影响，个体在不同处理水平上被处理的可能性的变化而得到体现。

\subsection{工具变量的细节}
\subsubsection{ 两阶段最小二乘中常犯的错误}
\begin{itemize}
	\item 第一，协变量不一致。第一阶段和第二阶段使用的外生协变量应一致。
	\item 第二，禁止回归。当内生变量是虚拟变量时，第一阶段如果使用非线性回归，这就是禁止回归。尽管这样做的问题不大，但最好避免。要么使用OLS，要么使用其非线性拟合值做工具变量再次估计。	
\end{itemize}
\subsubsection{ 同群效应}

\subsubsection{ 再论有限被解释变量}

\subsubsection{ 2SLS估计值的偏误}
2SLS是一致的，但是有偏的。

当工具变量是弱工具变量或存在过度识别时，很可能有偏。

在数学上，若关心的因果模型为，
\[y=\beta x+\eta\]

相应第一阶段公式为，
\[
x=Z\pi +\xi
\]

那么2SLS偏误为，
\[E(\hat \beta_{2SLS}-\beta)\approx \frac{\sigma_{\eta\xi}}{\sigma_{\xi}^2}\frac{1}{F+1}\]

其中，F是第一阶段回归的F值。如果F很小，2SLS偏误会趋向$\frac{\sigma_{\eta\xi}}{\sigma_{xi}^2} $，而OLS的偏误是$\frac{\sigma_{\eta\xi}}{\sigma_x^2} $，当$\pi $为0，2SLS偏误和OLS偏误是一样的。但如果F很大，那么2SLS的有偏性将消失，这正是我们乐意看到的。

应该注意，在模型中加入更多弱工具变量会增加2SLS的偏误。在恰好识别情况下，2SLS估计的偏误最少。

以下经验做法值得关注：
\begin{itemize}
	\item 报告第一阶段回归的系数，并思考其是否有意义。如其大小和符号如你所期吗？是不是太大了，符号不对？如果是这样，你假设的第一阶段机制可能并不存在。
	\item 报告排除工具变量的F统计量。该统计量越大越好，10以上是比较安全的。
	\item 报告用你觉得最好的工具变量作为恰好识别的估计值，他是中值无偏的。
	\item 用有限信息极大似然估计来检查2SLS。
	\item 观察诱导回归中因变量对工具变量的回归系数，t值及排除工具变量的F值。记住，诱导回归系数比例于你感兴趣的因果效应。如果在诱导回归中看不到你感兴趣的因果关系，那么很可能就没有因果关系。	
\end{itemize}

\section{ 相似世界：固定效应、双重差分和面板数据}
当工具变量不好找时，考虑固定效应等模型。
\subsection{个体固定效应}
考察工会身份是否影响工资水平。

固定效应的关键假设在于：
\begin{equation}\label{eq:20}
E[Y_{0it}|A_i,X_{it},t]=\alpha+\lambda_t+A'_i\gamma+X_{it}\delta
\end{equation}
以及，
\begin{equation}\label{eq:21}
E[Y_{1it}|A_i,X_{it},t]=\alpha+\lambda_t+\rho D_{it}+A'_i\gamma+X_{it}\delta
\end{equation}

其中，$Y_{0it},Y_{1it} $分别表示非工会成员和工会成员的工资，$A_i $是不可观测但固定干扰因素，$X_{it} $是可观察协变量，$D_{it} $是对是否工会成员的标示。

\eqref{eq:20}式和\eqref{eq:21}式可合写成，
\begin{equation}\label{eq:22}
Y_{it}=\alpha_i+\lambda_t+\rho D_{it}+X'_{it}\beta+\varepsilon_{it}
\end{equation}
其中，$\varepsilon_{it}\equiv Y_{0it}-E[Y_{0it}|A_i,X_{it},t] $，以及，
\[\alpha_i=\alpha+A'_i\gamma\]

此即固定效应模型。

估计\eqref{eq:22}式，有两种方法，都在于消除掉不可观测的 ，第一，组内估计。可以理解，
\[
\bar Y_i=\alpha_i+\bar \lambda+\rho \bar D_i+\bar X'_i\beta+\bar \varepsilon_i
\]

然后在\eqref{eq:22}式两边同时减去上式，可得，
\[
Y_{it}-\bar Y_i=\lambda_t-\bar \lambda+\rho (D_{it}-\bar D_i)+(X_{it}-\bar X_{i})'\beta+(\varepsilon_{it}-\bar \varepsilon_{i})
\]

第二，差分估计。估计下式，
\[
\Delta Y_{it}=\Delta \lambda_t+\rho \Delta D_{it}+\Delta X'_{it}\beta+\Delta \varepsilon_{it}
\]

组内估计和差分估计的异同：
\begin{itemize}
	\item 如果只有两期，则两个估计量是相同的。
	\item 在同方差、 无自相关且时期大于2时，组内估计更有效。
	\item 差分估计的误差项是序列相关的，计算标准误要调整。
	\end{itemize}

\vspace{2em}
面板数据中的度量误差会使后果更为严重，也会使得固定效应估计值偏小。这种度量误差的解决一般求助于工具变量。比如第二次度量的数据等。
\subsection{双重差分：事前与事后，处理和控制}
双重差分也是固定效应估计，不过使用的是加总而非个体数据。

\vspace{2em}
对于提高最低工资是否影响就业的研究，有，
\[
Y_{ist}=\gamma_s+\lambda_t+\delta D_{st}+\varepsilon_{ist}
\]

其中，$Y_{ist} $是可观测的$s$州在$t$期$i$餐厅的就业人数；$\gamma_s $是s州的州效应，类似于前面的个体效应；$\lambda_t $是对两个州都相同的年份效应；$D_{st} $是虚拟变量，$t$期实施较高的最低工资则取1；于是$\delta=E(Y_{1ist}-Y_{0ist}|s,t) $。若假设$E(\varepsilon_{ist}|s,t)=0 $，则将两个州在时间上差分一次，有，
\begin{align*}
& E(Y_{ist}|s=PA,t=Nov)-E(Y_{ist}|s=PA,t=Feb)=\lambda_{Nov}-\lambda_{Feb}\\
& E(Y_{ist}|s=NJ,t=Nov)-E(Y_{ist}|s=NJ,t=Feb)=\lambda_{Nov}-\lambda_{Feb}+\delta\\
\end{align*}
因此，为得到$\delta $，将上述差分项再差分一次，就可办到，
\begin{align*}
\delta =  [E(Y_{ist} & |s=NJ,t=Nov)-E(Y_{ist}|s=NJ,t=Feb)]-\\
& [E(Y_{ist}|s=PA,t=Nov)-E(Y_{ist}|s=PA,t=Feb)]
\end{align*}

上述式子的样本对应物就可以得到$\delta $（这里Feb是处理前，Ｎov是处理后；PA是控制组，NJ是处理组），问题是标准误等不太好求，因此，我们再次求助于回归，就像前面固定效应模型一样。故有，
\begin{equation}\label{eq:23}
Y_{ist}=\alpha+\gamma NJ_s+\lambda d_t+\delta (NJ_s\cdot d_t)+\varepsilon_{ist}
\end{equation}

对比前述的求法，\eqref{eq:23}式中的每一个参数也可以如下得到，
\begin{align*}
 \alpha =& E(Y_{ist}|s=PA,t=Feb)=\gamma_{PA}+\lambda_{Feb}\\
 \gamma = &E(Y_{ist}|s=NJ,t=Feb)-E(Y_{ist}|s=PA,t=Feb)=\gamma_{NJ}-\gamma_{PA}\\
 \lambda =& E(Y_{ist}|s=PA,t=Nov)-E(Y_{ist}|s=PA,t=Feb)=\lambda_{Nov}-\lambda_{Feb}\\
\delta =&  [E(Y_{ist} |s=NJ,t=Nov)-E(Y_{ist}|s=NJ,t=Feb)]-\\
& [E(Y_{ist}|s=PA,t=Nov)-E(Y_{ist}|s=PA,t=Feb)]
\end{align*}

1. 如果存在不同的处理强度，但这个强度可用某个变量来代理，那么\eqref{eq:23}式的$NJ_s $可用此变量替换。如最低工资对不同州有不同的影响，那么可以用$FA_s $度量每个州最可能被影响的青少年比例，那么就可以估计下式，
\[
Y_{ist}=\gamma_s+\lambda_t+\delta (FA_s\cdot d_t)+\varepsilon_{ist}
\]

对于该回归要注意：上述回归也是可以加入协变量的，但要注意协变量不要被最低工资影响。上述回归是在州层面平均值上回归的，也可以用个体值回归，这时协变量可以加入个体特征，这可以提高估计精度。但如果协变量同时含有州层面数据，那么推断会显得复杂。

2.对双重差分的稳健性检验。第一，类似与格兰杰因果检验。该检验要求有多期数据。假设政策变量是$D_{st} $，如果$D_{st} $是$Y_{ist} $变化的原因，那么$D_{st} $应该发生在$Y_{ist} $前面，或者说滞后的$D_{st} $是可以预测$Y_{ist} $的，而超前的$D_{st} $则不行，因此可以估计，
\[Y_{ist}=\gamma_s+\lambda_t+\sum_{\tau=0}^m \delta_{-\tau}D_{s,t-\tau}+\sum_{\tau=1}^q \delta_{+\tau}D_{s,t+\tau}+X'_{ist}\beta+\varepsilon_{ist}\]

$\delta_{t-\tau} $应该显著，而$\delta_{t+\tau} $则不然。具体的，在数据上，如果1995年是政策实施年，那么下表的第二列表示$D_{st} $，第四列表示滞后一期，第六列表示超前一期。
\begin{table}[h]
	\centering
	\begin{tabular}{cccccc}
\hline
年份 & $ D_{st} $ &年份	& $ D_{st-1} $&年份 &$ D_{st+1} $\\
\hline
1992&	0&1991&	0&1993&	0\\
1993&	0&	1992&	0&	1994&	0\\
1994&	0&	1993&	0&	1995&	1\\
1995&	1&	1994&	0&	1996&	1\\
1996&	1&	1995&	1&	1997&	1\\
1997&	1&	1996&	1&	1998&	1\\
1998&	1&	1997&	1&	1999&	1\\
1999&	1&	1998&	1&	2000&	1\\
\hline
	\end{tabular}
\end{table}
	 


第二，加入与每个州相联系的时间趋势项。如下式，
\[
Y_{ist}=\gamma_{0s}+\gamma_{1s}t+\lambda_t+\delta D_{st}+X'_{ist}\beta+\varepsilon_{ist}
\]

其中，$\gamma_{0s} $是每个州的截距项，$\gamma_{1s} $是每个对应的不同的时间趋势系数。这种设定允许处理组和控制组沿着不同的时间趋势发展。

3.三重差分。Yelowitz(1995)考虑了由政府提供的健康保险受惠范围扩大至一些不符合AFDC救助的孩子后，对其母亲的劳动参与状态和收入的影响。在那里，除了使用州和时间外，他还使用了孩子的年龄作为第三个维度，做了一个如下的三重差分，
\[
Y_{iast}=\gamma_{st}+\lambda_{at}+\theta_{as}+\delta D_{ast}+X'_{iast}\beta+\varepsilon_{iast}
\]

其中，$s$是州，$t$是时间，$a$表示该家庭中最小孩子的年龄，$D_{ast} $表示医疗覆盖的相应州在相应时期孩子处在接受医疗补助那个年龄段的家庭。
\subsection{ 固定效应和滞后被解释变量}
固定效应和双重差分都是基于时常的遗漏变量。但有个时候，譬如分析培训项目是否提高工资收入，发现参加培训的人其本来收入就低，这些因素并不时常，因此应该把它们包含进模型以回归。

具体的，在固定效应中，一般假设，
\begin{equation}\label{eq:24}
E(Y_{0it}|\alpha_i,X_{it},D_{it})=E(Y_{0it}|\alpha_i,X_{it})
\end{equation}
如果这个不可观测的 随时间发生改变，但恰巧是因变量的滞后项，那么可以基于如下假设进行推断，
\[
E(Y_{0it}|Y_{it-h},X_{it},D_{it})=E(Y_{0it}|Y_{it-h},X_{it})
\]

在估计方程上，可以设置，
\begin{equation}\label{eq:25}
Y_{it}=\alpha+\theta Y_{it-h}+\lambda_t+\delta D_{it}+X'_{it}\beta+\varepsilon_{it}
\end{equation}

选固定效应还是滞后解释变量？如果两个都加入模型的话，则估计下式，
\[
Y_{it}=\alpha_i+\theta Y_{it-h}+\lambda_t+\delta D_{it}+X'_{it}\beta+\varepsilon_{it}
\]

该式的估计比较麻烦。一般可以通过差分以去掉固定效应，
\begin{equation}\label{eq:26}
\Delta Y_{it}=\theta \Delta Y_{it-h}+\Delta \lambda_t+\delta \Delta D_{it}+\Delta X'_{it}\beta+\Delta \varepsilon_{it}
\end{equation}

但观察上式可以发现$\Delta Y_{it-h} $和$\Delta \varepsilon_{it} $都是$\varepsilon_{it-1} $的函数从而产生了相关，所以估计是不一致的。比较简单的解决办法是用$Y_{it-2} $作为$ \Delta Y_{it-h} $的工具变量，但是这要求$Y_{it-2} $与$\Delta \varepsilon_{it} $ 不相关，在培训提高收入与否的实证中，残差是控制协变量后剩余的收入，对于大部分人而言，收入是序列相关的，因此过去的收入很可能与$\Delta \varepsilon_{it} $相关。如果$\varepsilon_{it} $是序列相关的，那么\eqref{eq:26}式就没有一致的估计量。

在实证中，如果滞后因变量模型是正确的，但错误使用了固定效应模型，那么正的因果效应会偏大。如果固定效应模型是正确的，但错误使用了滞后因变量模型，正的因果效应会偏小。因此可以将固定效应估计值与滞后因变量估计值看作是感兴趣因果效应的极大值和极小值。

\section{ 断点回归设计}
清晰断点可以看作是选择偏误来自可观测变量，模糊断点则可看作一种工具变量法。
\subsection{ 清晰断点回归}
如果可以用线性模型来描述潜在结果，
\begin{align*}
& E(Y_{0i}|x_i)=\alpha+\beta x_i\\
& Y_{1i}=Y_{0i}+\rho
\end{align*}

那就意味着可以做如下回归，
\[
Y_i=\alpha+\beta x_i+\rho D_i+\eta_i
\]

该式与其他处理效应模型的区别在于$D_i $是$x_i $的确定性函数，其满足如下关系，
\begin{equation}\label{eq:27}
D_i=\begin{cases}
1 & if \; x_i\ge x_0\\
0 & if \; x_i\le x_0
\end{cases}
\end{equation}

不过，一般潜在结果并不是线性函数，但也可以通过多项式来逼近线性，譬如可以估计下式，
\begin{equation}\label{eq:28}
Y_i=\alpha+\beta_1 x_i+\beta_2 x_i^2+\cdots+\beta_p x_i^p+\rho D_i+\eta_i
\end{equation}

实际上，该式仍然不够一般化。如果$E(Y_{0i}|x_i) $和$E(Y_{1i}|x_i) $是两个不同趋势的函数，即分别有，

\begin{align}\label{eq:29}
& E(Y_{0i}|x_i)=\alpha+\beta_{01} \widetilde x_i+\beta_{02} \widetilde x_i^2+\cdots+\beta_{0p} \widetilde x_i^p\\
& E(Y_{1i}|x_i)=\alpha+\beta_{11} \widetilde x_i+\beta_{12} \widetilde x_i^2+\cdots+\beta_{1p} \widetilde x_i^p+\rho \nonumber
\end{align}

其中，$\widetilde x_i\equiv x_i-x_0 $。同时，下式恒成立，
\begin{equation}\label{eq:30}
E(Y_i|x_i)=E(Y_{0i}|x_i)+E(Y_{1i}-Y_{0i}|x_i)D_i
\end{equation}
那么将\eqref{eq:29}式代入\eqref{eq:30}式，有，
\begin{align}\label{eq:31}
Y_i= & \alpha+\beta_{01} \widetilde x_i+\beta_{02} \widetilde x_i^2+\cdots+\beta_{0p} \widetilde x_i^p\\
& \rho D_i+\beta_1^* D_i\widetilde x_i+\beta_{2}^* D_i\widetilde x_i^2+\cdots+\beta_{p}^*D_i \widetilde x_i^p+\eta_i\nonumber
\end{align}
其中，$\beta_1^*=\beta_{11}-\beta_{01} $，以此类推。上式就是最一般的断点回归估计式。\eqref{eq:28}式不过是上式在$\beta_1^*=\beta_2^*=\cdots=\beta_p^*=0 $下的特殊形式。不过按照Angrist的经验，这两个式子的估计差别不会太大。

为降低将$E(Y_{0i}|x_i) $的急剧转向误判为在该点的跳跃的概率，可以只去考察在$x_0 $邻域内的数据，即只要比较$x_0 $左右两侧一个足够小的邻域内$Y_{0i} $和$Y_{1i} $的均值差异。但一般邻域内数据不多，解决该问题的办法有非残的局部线性回归，部分线性、局部多项式回归等，其思想在于越近$ x_0 $ ，加权回归的权重越高。

稳健性检验的方法：
\begin{itemize}
	\item 借鉴非参检验思想，当估计窗口不断逼近 时，处理效应应该保持稳定。
	\item  附近的预处理变量应该是连续非跳跃的。另外，McCrary(2008)提出了一个检验方法。
	
\end{itemize}
\subsection{ 模糊断点回归}
和清晰断点不同，此时当$x_i\ge x_0 $时，$D_i $并不会一定要取1，只是取1的概率要发生很大的跳跃，即\eqref{eq:27}式做出如下修改，
\[P(D_i=1|x_i)=\begin{cases}
g_1(x_i) & if \; x_i\ge x_0\\
g_0(x_i) & if \; x_i< x_0
\end{cases}\]
其中，$g_0(x_i),g_1(x_i) $可以是任意函数，只是在$ x_0 $处明显不同。若假设$g_1(x_0)> g_0(x_0) $，那么，
\begin{equation}\label{eq:32}
E(D_i|x_i)=P(D_i=1|x_i)=g_0(x_0)+[g_1(x_0)-g_0(x_0)]T_i
\end{equation}
此处，$T_i $是$x_i $的一个确定函数，即满足$T_i=1(x_i\ge x_0) $。于是，我们很自然就想到$T_i $可以作为$D_i $的一个工具变量来估计（应该理解此时$D_i $不一定要是虚拟变量，只要$ x_i $在$ x_0 $处以概率的形式影响$D_i $即可）。

与上一节\eqref{eq:31}式类似，\eqref{eq:32}式可以写成
\begin{align*}
E(D_i|x_i)= & \gamma_{00}+\gamma_{01} x_i+\gamma_{02} x_i^2+\cdots+\gamma_{0p} x_i^p\\
& \pi T_i+\gamma_1^* x_i T_i+\gamma_{2}^* x_i^2 T_i+\cdots+\gamma_{p}^* x_i^p T_i
\end{align*}

那么将类似于\eqref{eq:31}式模糊断点回归，其内生变量包括$(D_i,\widetilde x_iD_i,\widetilde x_i^2D_i \cdots \widetilde x_i^pD_i) $，工具变量为$(T_i,\widetilde x_iT_i,\widetilde x_i^2T_i \cdots \widetilde x_i^pT_i)  $。于是，使用工具变量估计，其第一阶段回归可以写成，
\begin{align*}
D_i= & \gamma_{00}+\gamma_{01} \widetilde x_i+\gamma_{02} \widetilde x_i^2+\cdots+\gamma_{0p} \widetilde x_i^p \\
& +\pi T_i+\gamma_1^* \widetilde x_i T_i+\gamma_{2}^* \widetilde x_i^2 T_i+\cdots+\gamma_{p}^* \widetilde x_i^p T_i+\xi_{0i}\\
D_i\widetilde x_i= & \gamma_{00}+\gamma_{01} \widetilde x_i+\gamma_{02} \widetilde x_i^2+\cdots+\gamma_{0p} \widetilde x_i^p\\
& +\pi T_i+\gamma_1^* \widetilde x_i T_i+\gamma_{2}^* \widetilde x_i^2 T_i+\cdots+\gamma_{p}^* \widetilde x_i^p T_i+\xi_{1i}\\
& \vdots \\
D_i\widetilde x_i^p= & \gamma_{00}+\gamma_{01} \widetilde x_i+\gamma_{02} \widetilde x_i^2+\cdots+\gamma_{0p} \widetilde x_i^p\\
& +\pi T_i+\gamma_1^* \widetilde x_i T_i+\gamma_{2}^* \widetilde x_i^2 T_i+\cdots+\gamma_{p}^* \widetilde x_i^p T_i+\xi_{pi}
\end{align*}

然后将估计出的$(\widehat D_i,\widehat {\widetilde x_iD_i},\widehat {\widetilde x_i^2D_i} \cdots \widehat{\widetilde x_i^pD_i}) $代入\eqref{eq:31}式获得第二阶段估计值。

实际上，很多时候我们去掉了交互项，仅用 做工具变量。

非参方法依然可以工作，Hahn, Todd and van der klaauw(2001)发展出一套非参工具变量估计过程。
\section{分位回归}
\section{非标准的标准误问题}
\subsection{稳健标准误的偏误可能比普通标准误的偏误要大}
回顾怀特异方差那一节，$ \hat \beta $服从如下分布，
\[ \sqrt{N}(\hat{\beta}-\beta)\sim N(0,\Omega) \]


\subsection{面板数据中的聚类问题和序列相关问题}
\subsubsection{聚类与Moulton因子}
统计推断中，异方差不会造成太大问题，如$ HC_1 $可能只比普通标准误高25\%。但聚类带来的偏误会非常巨大。现在考虑一个带有群结构的二元回归，
\[ Y_{ig}=\beta_0+\beta_1x_g+e_{ig} \]

其中$ Y_{ig} $是$ g $群第$ i $个个体的因变量，$ x_g $是仅随群变化的自变量，我们仅感兴趣于$ \beta_1 $。如果误差项具备如下群结构，
\[ e_{ig}=\nu_g+\eta_{ig} \]

其中$ \nu_g $是群的随机项，$ \eta_{ig} $是个体层面的随机项，假设诸$ \eta_{ig} $之间不相关。那么根据上式，组内相关系数$ \rho_e $就成为，
\[ \rho_e=\frac{\sigma_{\nu}^2}{\sigma_\nu^2+\sigma_\eta^2} \footnote{该式可以通过如下推导得到，
	\begin{align*}
	Cov(e_{ig},e_{jg}) & =E(\nu_g+\eta_{ig})(\nu_g+\eta_{jg})=E(\nu_g^2)=\sigma_\nu^2\\
	Var(e_{ig}) & =Var(e_{jg})=\sigma_\nu^2+\sigma_{\eta}^2
	\end{align*}}\]

若令$ V_c(\hat \beta_1) $是传统方差公式，$ V(\hat{\beta_1}) $是给定前述残差结构后修正的方差，那么，当非随机回归元在群这一层面固定且群规模相等并为$ n $,那么有\footnote{书中附录有证明。}，
\[ \frac{V(\hat{\beta_1})}{V_c(\hat{\beta_1})}=1+(n-1)\rho_e \]

该比值的平方根成为Moulton因子。但上式是特殊的，因为其要求群内回归元固定，群规模固定。\textbf{更一般的公式}是允许回归元$ x_{ig} $变化，也允许群规模$ n_g $变化，此时的Moulton因子为下式的平方根，
\[ \frac{V(\hat{\beta_1})}{V_c(\hat{\beta_1})}=\left[\frac{V(n_g)}{\bar n}+\bar n-1\right]\rho_x\rho_e \]

其中，$ \bar n $是平均群规模，$ \rho_x $是$ x_{ig} $的组内相关系数，
\[ \rho_x=\frac{\sum_g\sum_j\sum_{i\ne j}(x_{ig}-\bar x)(x_{jg}-\bar x)}{V(x_{ig})\sum_gn_g(n_g-1)} \]

应该指出，在Stata中使用命令\emph{lonewag}就可以得到$ \rho_e,\rho_x $(本人发现似乎只可得到$ \rho_e $)。

